Testes de Hipóteses

Prova Didática: Seleção professor substituto

Carolina Musso

Departamento de Estatística - UnB

O que vimos até aqui

  • Estatística Descritiva
    • Tendência Central e de Dispersão
  • Distribuição normal
    • Distribuição Amostral
  • Intervalos de Confiança

Hoje

  • Testes de Hipótese

Uma motivação

  • Imagine existe uma forma de medir a ansiedade com um número (uma nota). Nesse exemplo fictício, essa escala ansiedade que pode ter valores negativos (se a pessoa é muito calma) e valores positivos (pessoas mais ansiosas).

  • Vamos supor ainda que um censo realizado nos anos 90 mostrou que na população do Distrito Federal, a média de ansiedade é 0 unidades de ansiedade (angustigramas), ou seja \(\mu_{1990} = 0\) , com desvio padrão de 5 (\(\sigma = 5\)). Ou seja, em média, o brasiliense não é ( ou pelo menos não era) nem muito ansioso nem muito calmo.

Resultado censo

Motivação

  • Desconfiamos que esse nível de ansiedade aumentou.

    • Esse ano não foi possível fazer um censo, mas somente medir a ansiedade em uma amostra aleatória de 1000 (mil pessoas) do DF.
  • A média na amostra foi de 0,32 angustigramas.

    • Será que essa média é mesmo maior que meu valor de referência (média 0)?

    • Será que por acaso que selecionei justamente as pessoas ansiosas nessa amostra?

    • Qual a chance de, ao acaso, eu ter selecionado justamente as pessoas mais ansiosas?

Lembra?

  • A distribuição amostral da média.

\(E[\bar{x}] = \mu\) ; \(s = \frac{\sigma}{\sqrt{n}}\)

E se a média da população tiver mesmo mudado?

Tipos de Erro que posso cometer

Rejeita H0 Não-rejeita H0
H0 verd. Erro tipo I Correto!
H0 falsa Correto! Erro tipo II

Tipos de Erro que posso cometer

Qual a intuição do teste de hipótese

  • Inferência: Fazer conclusões sem ter acesso a toda a informação.
    • Amostras, População, Probabilidade
  • Também pode ser visto: Sinal / Ruído
    • A “razão sinal-ruído” (ou SNR, do inglês Signal-to-Noise Ratio) é uma medida que compara a intensidade ou força do sinal desejado com a intensidade do ruído de fundo. Em outras palavras, é uma relação que nos diz o quanto o sinal é “forte” em comparação com o “ruído”.

Teste de Hipótese

O que é uma hipótese?

Já fizemos algo parecido…

  • Na aula passada

\[ IC = (-0.31, 0.31) \]

  • O teste de hipótese pode nos dar mais informações!

Formulação de um teste de hipótese

\(H_0: \mu_{2023} \le 0\)

\(H_1: \mu_{2023} > 0\)

  • A hipótese nula é uma declaração que geralmente estamos “tentando” rejeitar em nossa pesquisa.
  • A lógica básica: Quando usamos uma amostra para fazer inferências sobre os parâmetros da população, queremos saber se nossa amostra provém de uma população é bem definida pela hipótese nula.

Precisamos calcular um número!

  • Uma estatística.
  • Um valor que a gente consegue calcular e que sabemos a distribuição!
  • Uma amostra de uma distribuição normal, ou grande o suficiente, e se eu conheço a variância populacional:

\[Z = \frac{(\bar{x} - \mu_{nula})}{\frac{\sigma}{\sqrt{n}}} \sim N(0,1)\]

  • (Podemos olhar na Tabela!)

Quanto estou disposto a errar?

  • \(\alpha=0.05\) é um dos mais comuns.
  • Fixe a probabilidade de cometer o erro de tipo I e use este valor para construir uma região (regra de decisão). Para tal, vamos usar a estatística que definimos e os valores de parâmetro hipotetizados por \(H_0\)

Cálculo e Conclusão

  • Use as observações da amostra para calcular o valor da estatística do teste.

  • Se o valor da estatística calculado com os dados da amostra pertencer à região crítica, rejeite \(H_0\); caso contrário, não rejeite \(H_0\).

“Receita”

Formulação de Hipóteses:

  • Hipótese Nula ((H_0)): É a hipótese inicial, frequentemente assumindo que não há efeito ou diferença significativa. Geralmente, é representada como uma igualdade ((=, , )).

  • Hipótese Alternativa ((H_1) ou (H_a)): É a hipótese que se quer testar, indicando a presença de um efeito ou diferença significativa. Pode ser formulada como uma desigualdade ((<, >, )).

Escolha do Nível de Significância (()):

  • O nível de significância (\(\alpha\)), que é a probabilidade de cometer um erro do tipo I, ou seja, rejeitar ( \(H_0\)) quando ela é verdadeira. É geralmente escolhido a priori (por exemplo, 0,05 ou 5%).

Computando a Estatísticas do Teste:

  • Calcula-se a estatística do teste apropriada com base nos dados amostrais. A escolha da estatística depende da natureza do teste (estamos vendo o teste z. Mas há outros!).

Decisão e Conclusão:

  • Compara-se a estatística do teste com uma região crítica determinada pela distribuição de probabilidade sob a suposição de que a hipótese nula é verdadeira. - Se a estatística do teste estiver na região crítica, rejeita-se ( \(H_0\)) em favor de ( \(H_1\)). Se não estiver, não se rejeita ( \(H_0\)). - Se \(H_0\) for rejeitada, há evidências suficientes para afirmar ( \(H_1\)) é uma hipótese mais razoável.

Um exemplo utilizando a região crítica

Voltando ao nosso exemplo da ansiedade

1) Hipóteses

\(H_0: \mu_{2023} = 0\)

\(H_1: \mu_{2023} > 0\)

Estatística \(Z \sim N(0,1)\)

Significância

\(\alpha=0.05\)

  • Definir a região crítica.

Computar a estatística

\[Z = \frac{0.32 - 0}{\frac{5}{\sqrt(1000)}} =2.023858 \]

Comparação e Conclusão

\(Z = 2.023858 > 1.645\)

Está na região crítica!

Rejeita-se a Hipótese Nula. Há evidencias que a média de ansiedade na população do DF aumentou.

Uma outra forma de fazer

Qual seria minha região crítica na escala da média, e não de Z?

\[1.64 = \frac{\bar{x}_{crit} - 0}{\frac{5}{\sqrt(1000)}}\]


\[ \bar{x}_{crit} = 0.2583\]


\[0.32 > 0.2593068\], rejeita-se a Hipótese nula.

Mais uma forma…

O p-valor

\(Z = 2.02\)

Que teste fizemos?

  • Teste para uma amostra de uma população normal
    • Ou uma amostra suficientemente grande
  • Variância conhecia
  • Unilateral

Como seria o bilaterial?

\[ H_0: \mu_{2023} = 0\\ H_{1}: \mu_{2023} \neq 0 \]

Exercício

Desafios:

  • Leia sobre o teste de proporção. Tente relacionar com a média.
  • Nomeie pelo menos 2 outros testes de hipótese que existem.

Exemplo Excel

Para os mais corajosos

Exemplo R

[1] 0.02285653

“p-hacking”

  • Discussão

Para aprofundamento

Bibliografia básica:

Referências

BARBETTA, P. A. Estatı́stica aplicada às ciências sociais. [s.l.] Ed. UFSC, 2008.
LAPPONI, J. C. Estatı́stica usando excel. [s.l.] Elsevier Brasil, 2004.
MORETTIN, P. A.; BUSSAB, W. O. Estatı́stica básica. [s.l.] Saraiva Educação SA, 2017.